LLM 生成的推理步骤可能不完整,因为它们模仿了预训练数据中日常交流中常见的逻辑跳跃:底层原理经常是隐含的(未说明的)。为了应对这一挑战,我们引入了 R ATIONALYST,这是一个基于对从未标记数据中提取的大量原理注释进行预训练的推理过程监督模型。我们从网络规模的未标记数据集(Pile)和推理数据集组合中提取了 79k 个原理,几乎无需人工干预。这种网络规模的推理预训练使 R ATIONALYST 能够在各种推理任务中一致地概括,包括数学、常识、科学和逻辑推理。经过 LLaMa-3-8B 微调后,R ATIONALYST 在 7 个代表性推理基准上将推理准确率平均提高了 3.9%。与 GPT-4 等明显更大的验证器以及在匹配训练集上进行微调的类似大小的模型相比,它还表现出了卓越的性能。1
![arXiv:2410.01044v1 [cs.AI] 2024 年 10 月 1 日PDF文件第1页](/bimg/8/8efc19c64ac92b393b8e6e843e1f8db6befb7364.webp)
![arXiv:2410.01044v1 [cs.AI] 2024 年 10 月 1 日PDF文件第2页](/bimg/7/79d8ca2b5be876d878cd2ae5a60b427a76ecd18b.webp)
![arXiv:2410.01044v1 [cs.AI] 2024 年 10 月 1 日PDF文件第3页](/bimg/f/fde96d21f3e2addd0ef31b172a3c5a98547d6464.webp)
![arXiv:2410.01044v1 [cs.AI] 2024 年 10 月 1 日PDF文件第4页](/bimg/e/ef00918cd895d2c50eb9db5f8da3b7072752f14b.webp)
![arXiv:2410.01044v1 [cs.AI] 2024 年 10 月 1 日PDF文件第5页](/bimg/1/1c2d72c128443e05b0d986a157b92044d3dc0b2f.webp)
